1امروزه استفاده از روشهای پیشرفته برای کنترل حرکات رباتهای زیرسطحی سبب بهبود راندمان و افزایش کیفیت عملیات آن ها شده است. در این پژوهش با استفاده از روش یادگیری تقویتی برای حرکت عمقی رباتهای AUV روشی توسعه داده شده است که براساس معیار پاداش الگوی حرکت ربات را یاد گرفته و براساس آن بهترین تصمیم را برای حرکت و کنترل سطوح کنترلی اتخاذ میکند. کنترل حرکت عمقی براساس یادگیری تقویتی سبب بهبود عملکرد ربات میگردد و بهینهترین سیگنال کنترلی را براساس شرایط لحظهای ربات و پاداشها اتخاذ میکند. در این پژوهش از مدل دینامیکی خطی حرکت پیچ برای توسعه مدل حرکت عمقی استفاده شده است. برای هر هدف مطلوب 500 مرتبه سناریو تکرار میشود تا در حین شبیهسازی ماتریس Q به روزرسانی شود. در ادامه با ارائه پاداش به هر سیگنال مقدار مطلوب مشخص میگردد. پس از پایان سناریو، با انتخاب مقدار بهینه از ماتریس Q، مقدار سیگنال کنترلی برای بالک مشخص میگردد. نتایج نشان داد که استفاده از روش یادگیری تقویتی کمک شایانی به کیفیت سیستم کنترل رباتهای AUV میکند تا جایی که مقدار فرارفت و نوسان کمی در عملکرد مشاهده شد.